1. variable central

Column

La práctica de lectura a nivel nacional

Column

Tabla descriptiva de la varible tasa de lectura

[1] "Descriptivo de la variable tasa de lectura"
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  0.000   1.216   1.697   1.561   1.930   3.000 

Introducción

La lectura es esencial para el desarrollo integral del ser humano, teniendo un impacto significativo en su desarrollo intelectual, social, espiritual y moral (Domínguez et al., 2015, p. 5-6). La enseñanza de la lectura y la literatura se considera un objetivo primordial en la educación. En este contexto, es fundamental analizar los determinantes socioeconómicos e infraestructurales que afectan la práctica lectora de niños y adolescentes, para comprender las variables significativas involucradas en esta área.

En este trabajo se examina la práctica de la lectura en niños y adolescentes de 6 a 17 años de edad, con el hábito de lectura como nuestra variable central (dependiente). Para el análisis, se utilizó datos recopilados de la Encuesta Nacional de Lectura - ENL (2022) del INEI y de la Encuesta Nacional de Hogares (ENAHO) del mismo año (2022).

La variable central representa la proporción de niños que tienen el hábito de lectura, definido como aquellos que leen al menos una vez a la semana. Esta medida se expresa en una escala de tasa, donde un valor mínimo de 1 indica que todos los niños en la muestra leen con regularidad, mientras que un valor máximo de 3 sugiere que, en promedio, cada niño lee tres veces más que la frecuencia base o media observada.

2. Variables Independientes

Column {data-width=400}

Tasa de viviendas con acceso a internet por cableado

Tasa de viviendas con acceso a internet desde un celular

Tasa de viviendas con acceso a electricidad

Tasa de viviendas con acceso a agua

Column {data-width=300}

CEDU

¿Qué son las CEDUS?

CEDU es la abreviatura de Calidad EDUcativa, estas fueron recolectadas de la Encuesta Nacional de Hogares del año 2022.

  1. CEDU INFRA → Percepción de la calidad de infraestructura en los centros educativos (techo, paredes, etc)

  2. CEDU EQUIPO → Percepción de la calidad del equipamiento en los centros educativos (carpetas, pizarras, sillas, etc)

  3. CEDU ENSEÑANZA → Percepción de la calidad de los maestros en los centros educativos

  4. CEDU PARTICIPACIÓN PADRES→ Percepción de la calidad de los mecanismos para la participación de los padres de familia en las instituciones educativas

  5. CEDU MATERIAL → Percepción de la calidad del material educativo de las instituciones educativas (libros, planes lectores, etc)

  6. Análisis Factorial CEDU

Column {data-width=200}

Correlación entre variables para posible índice:

Column {data-width=200}

Índices KMO y Overall MSA:

Kaiser-Meyer-Olkin factor adequacy
Call: psych::KMO(r = corMatrix)
Overall MSA =  0.69
MSA for each item = 
     cedu_infra     cedu_equipo  cedu_ensenanza   cedu_material cedu_partpadres 
           0.63            0.65            0.72            0.81            0.71 

Resultados Pruebas

¿Es matriz de identidad?
[1] FALSE
¿Es una matriz singular?
[1] FALSE

Resultado del Análisis Factorial

Análisis

  • Previo al análisis de nuestras variables independientes, se llevó a cabo un Análisis Factorial Exploratorio basado en las variables CEDU. Los resultados mostraron correlaciones positivas moderadamente adecuadas, con un coeficiente KMO de 0.67. Además, las pruebas para determinar si la matriz era una identidad o singular resultaron negativas, lo que permitió continuar con el análisis factorial.

  • La función fa.parallel sugirió la existencia de 2 variables latentes. En el gráfico de “Resultado de EFA” se observan claramente dos factores: MR1 y MR2.

  • El MR1 incluye “cedu_infra” (calidad educativa de la infraestructura) y “cedu_equipo” (calidad educativa de los equipos en las instituciones educativas), ambos relacionados con los recursos físicos educativos. Estos formarán el “índice_1_cedu”.

  • Por otro lado, el MR2 engloba “cedu_partpadres” (participación de los padres), “cedu_enseñanza” (calidad de la enseñanza) y “cedu_material” (materiales educativos), factores que tienen un enfoque más individualizado al entorno personal del estudiante. Estos constituirán el “índice_2_cedu”.

4. Correlaciones con la variable central

Column {data-width=300}

Correlación con vivienda con acceso a internet

Correlación con vivienda con acceso internet desde un celular

Correlación con vivienda con acceso a electricidad

Correlación con vivienda con acceso a agua

Correlación con el índice 1

Correlación con el Índice 2

Column {data-width=200}

Análisis

Las correlaciones bivariadas entre la “tasa de la práctica de lectura en los niños y adolescentes (de 6 a 17 años)” y las variables independientes se midieron utilizando la prueba de Pearson en todos los casos.

  • Tasa de Internet: Esta variable representa la tasa de viviendas con acceso a Internet. Tiene una relación positiva y significante, prueba Spearman, con p valor de 0.03.

  • Tasa de Internet móvil: Esta variable indica la tasa de viviendas con acceso a Internet desde un teléfono móvil. Posee una relación positiva y débil, con un coeficiente de Pearson de 0.1538.

  • Tasa de electricidad: Esta variable muestra la tasa de viviendas con acceso a electricidad. Tiene una relación positiva y signficativa, prueba Spearman y con p valor de 0.026.

  • Tasa de agua: Esta variable se refiere a la tasa de viviendas con acceso a agua potable desde una red pública. La relación es positiva relación positiva y signficativa, prueba Spearman y con p valor de 0.016.

  • Índice 2 CEDU: La relación entre esta variable y la práctica de lectura es positiva y signficativa, prueba Spearman y con p valor de 0.07.

  • Índice 1 CEDU: Se observa una relación positiva y signficativa, prueba Spearman y con p valor de 0.01.

  • IMPORTANTE: nos quedaremos con las más significativas y determinantes (a nuestro criterio) para realizar los modelos de regresión, que son: “tasa de Internet”, “tasa de Internet móvil”, “tasa de electricidad” e “Índice 1 CEDU”.

5. Regresiones

Column {data-width=300}

MODELO 1

Regresion: modelo 1
 Modelo (I)
(Intercept) -4.750***
(0.075)
indice_1_cedu 0.162
(0.106)
Num.Obs. 175
AIC 667.2
BIC 673.5
Log.Lik. -331.584
F 2.312
RMSE 1.94
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

MODELO 2

Regresion: modelo 2
 Modelo (II)
(Intercept) -3.670***
(0.113)
indice_1_cedu 0.259**
(0.100)
tasa_internet -1.395***
(0.149)
Num.Obs. 175
AIC 560.4
BIC 569.9
Log.Lik. -277.206
F 46.251
RMSE 1.23
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

MODELO 3

Regresion: modelo 3
 Modelo (III)
(Intercept) -3.355***
(0.206)
indice_1_cedu 0.255*
(0.099)
tasa_internet -1.215***
(0.181)
tasa_celinter -0.274+
(0.157)
Num.Obs. 175
AIC 559.3
BIC 572.0
Log.Lik. -275.663
F 33.248
RMSE 1.15
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

MODELO 4

Regresion: modelo 3
 Modelo (III)
(Intercept) -3.355***
(0.206)
indice_1_cedu 0.255*
(0.099)
tasa_internet -1.215***
(0.181)
tasa_celinter -0.274+
(0.157)
Num.Obs. 175
AIC 559.3
BIC 572.0
Log.Lik. -275.663
F 33.248
RMSE 1.15
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Comparación

EXP() del Modelo 1, Modelo 2 y Modelo2
Modelo 1  Modelo 2  Modelo 3  Modelo 4
(Intercept) 0.008652*** 0.02548*** 0.03491*** 0.004245***
[0.007443, 0.009983] [0.02033, 0.03161] [0.02304, 0.05173] [0.0001903, 0.05725]
indice_1_cedu 1.175668 1.29610** 1.28994* 1.260862*
[0.958747, 1.455157] [1.07020, 1.58084] [1.06567, 1.57253] [1.0410659, 1.53844]
tasa_internet 0.24771*** 0.29671*** 0.278674***
[0.18335, 0.32959] [0.20685, 0.42114] [0.1925816, 0.39928]
tasa_celinter 0.76024+ 0.738148+
[0.55756, 1.03203] [0.5396872, 1.00459]
tasa_elec 2.143853
[0.8443085, 6.39857]
Num.Obs. 175 175 175 175
AIC 667.2 560.4 559.3 558.8
BIC 673.5 569.9 572.0 574.7
Log.Lik. -331.584 -277.206 -275.663 -274.419
F 2.312 46.251 33.248 25.811
RMSE 1.94 1.23 1.15 1.15
+ p < 0.1, * p < 0.05, ** p < 0.01, *** p < 0.001

Column

Tabla Chi- Cuadrado

Tabla ANOVA para comparar modelos
Resid. Df Resid. Dev Df Deviance Pr(>Chi)
173 354.5530 NA NA NA
172 245.7972 1 108.755820 0.0000000
171 242.7115 1 3.085688 0.0789839
170 240.2232 1 2.488343 0.1146924

Análisis

  • Modelo 1: Primera hipótesis: la práctica lectora en niños y adolescentes es causada por el ambiente de la institución educativa.

  • Modelo 2: Segunda hipótesis: la práctica lectora en niños y adolescentes es causada por el acceso a Internet, por el acceso a recursos físicos educativos de calidad, el acceso a Internet desde un celular móvil y que la vivienda cuente con electricidad.

  • Modelo 3: Tercera hipótesis: la práctica lectora en niños y adolescentes es causada por el acceso a Internet, el acceso a Internet desde un celular móvil y que la vivienda cuente con electricidad.

  • Conclusión: La regresión elegida es la de Poisson, ya que nuestras variables están medidas en tasas, lo que la convierte en la opción indicada. Se inició con el MODELO 1, utilizando las variables “índice_1_cedu” y “tasa_internet”. En este modelo, se identificó la significancia de ambas variables. Por lo tanto, se procedió a realizar el MODELO 2. En esta se agregaron las variables restantes: “tasa_internet_celular” y “tasa_electricidad”. La significancia de “índice_1_cedu” se mantuvo, mientras que las variables agregadas resultaron significativas la primera a 0.05 y la segunda al 0.1. Por consiguiente, se procedió a realizar el MODELO 3; se decidió quitar la variable “índice_1_cedu” para el tercer modelo, y las variables mantuvieron su significancia. Al comparar los modelos con la prueba de chi-cuadrado, tal como se visualiza en la tabla ANOVA, se demostró que el segundo modelo (o MODELO 2) resultó ser el mejor, con un AIC de 558.8 el cual es el menor de los tres modelos. Asimismo, todas las variables del segundo modelo son significativas al 0.1, siendo la más significativa la “tasa_internet” al 0.001.

6. Conglomerados

Column {data-width=300}

Cantidad de Clusters

Dendograma en base a estragia de partición (AGNES)

Column

Silhouette

Análisis

  • Al realizar el proceso de clusterización y análisis por conglomerados, se observó que el mejor modelo resultó ser AGNES, con un Silhouette de 0.24. Aunque este valor es bajo, es el mejor y nos muestra una clara agrupación. El eje ‘Height’ nos muestra que el “costo” de conglomerar fue de 2.0. Además, el cuarto grupo es el mejor agrupado. Por último, estas son las provincias mal clusterizadas: AREQUIPA, CANDARAVE, CARABAYA, CHUPACA, FERREÑAFE, HUARAZ, HUAYLAS, JULCAN, LAMBAYEQUE, LUCANAS, MARISCAL NIETO, OXAPAMPA, PICOTA, SAN MIGUEL, SAN ROMAN, TARATA, VICTOR FAJARDO, VILCAS HUAMAN y VIRU.

7. Conclusiones

Column

Gráfico regresional

Column

Bibliografía

Domínguez, I. D., Delgado, L. R., Ávila, Y. T., & Ávila, M. M. R. (2015). Importancia de la lectura y la formación del hábito de leer en la formación inicial. Estudios del desarrollo social: Cuba y América Latina, 3(1), 94-102.

Encuesta Nacional de Lectura - ENL (2022). Características de la vivienda y del hogar, actividades de fomento de la lectura en el hogar y TIC. Recuperado de la base de datos del Instituto Nacional de Estadística e Informática.

Encuesta Nacional de Lectura - ENL (2022). Prácticas lectoras de los residentes habituales de 0 a 17 años de edad. Recuperado de la base de datos del Instituto Nacional de Estadística e Informática.

Conclusiones Finales

  • ACAAA TEXTOOOOO

---
title: "Causas de la práctica de lectura en niños y adolescentes del Perú 2022"

output: 
  flexdashboard::flex_dashboard:
    theme: sandstone
    social: menu
    source_code: embed
    orientation: columns
    vertical_layout: fill
---
```{r setup, include=FALSE}
library(flexdashboard)
library(rio)
library(ggplot2)
library(stringr)
library(dplyr)
library(tidyverse)
library(modelsummary)
library(kableExtra)
library(cluster)
library(sf)
data = import ("provtasa_total.csv")
dataDep = import("depatasa_total.csv")
```

```{r stup, include=FALSE}
data <- data[complete.cases(data), ]
```


1. variable central {data-icon="fa-signal"}
===================================== 
Column {data-width=300}
-------------------------------------------------------------------------------------------------------
```{r, include=FALSE}
library(sf) 
mapDEP=sf::read_sf("DEPARTAMENTO.shp")
head(mapDEP) #Veamos la geometría:
```

```{r, include=FALSE}
mapDEP2 <- merge(mapDEP, dataDep, by.x = 'DEPARTAMEN', by.y = 'NOMBDEP', all.x = TRUE)
```

### La práctica de lectura a nivel nacional
```{r}
# Crear el mapa con ajustes
mapa_lectura <- ggplot(mapDEP2) +
  geom_sf(aes(fill = tasa_leer), color = "gray") +  # Mapea la variable tasa_leer al relleno del mapa
  scale_fill_gradient(low = "#edf8fb", high = "#08306b", na.value = "gray", 
                      breaks = seq(0, 100, by = 10)) +  # Escala de colores y valores para la tasa de lectura
  labs(
    fill = "Tasa de Lectura",
    title = "Práctica de lectura a nivel nacional",
    subtitle = "Según el censo de lectura realizado por el INEI",
    caption = "Fuente: INEI \nElaborado por: Yhara y Romina"
  ) +
  theme_minimal() +  # Tema minimalista
  theme(
    plot.title = element_text(color = "black", size = 16, face = "bold", hjust = 0.5),  # Tamaño más pequeño para el título
    plot.subtitle = element_text(color = "black", size = 12, hjust = 0.5),  # Tamaño más pequeño para el subtítulo
    plot.caption = element_text(color = "black", size = 10),  # Tamaño más pequeño para el pie de página
    legend.position = "right",  # Coloca la leyenda a la derecha
    legend.title = element_text(size = 12, face = "bold"),  # Tamaño más pequeño para el título de la leyenda
    legend.text = element_text(size = 10),  # Tamaño más pequeño para el texto de la leyenda
    axis.title = element_blank(),  # Elimina los títulos de los ejes
    axis.text = element_blank(),  # Elimina los textos de los ejes
    axis.ticks = element_blank()  # Elimina las marcas de los ejes
  ) +
  theme(panel.background = element_blank())  # Hace el fondo del panel blanco

# Mostrar el mapa
print(mapa_lectura)
```


Column {data-width=300}
-----------------------------------------------------------------------

### Tabla descriptiva de la varible tasa de lectura

```{r}
print("Descriptivo de la variable tasa de lectura")
print(summary(data$tasa_leer))
```

### Introducción 

La lectura es esencial para el desarrollo integral del ser humano, teniendo un impacto significativo en su desarrollo intelectual, social, espiritual y moral (Domínguez et al., 2015, p. 5-6). La enseñanza de la lectura y la literatura se considera un objetivo primordial en la educación. En este contexto, es fundamental analizar los determinantes socioeconómicos e infraestructurales que afectan la práctica lectora de niños y adolescentes, para comprender las variables significativas involucradas en esta área.

En este trabajo se examina la práctica de la lectura en niños y adolescentes de 6 a 17 años de edad, con el hábito de lectura como nuestra variable central (dependiente). Para el análisis, se utilizó datos recopilados de la Encuesta Nacional de Lectura - ENL (2022) del INEI y de la Encuesta Nacional de Hogares (ENAHO) del mismo año (2022).

La variable central representa la proporción de niños que tienen el hábito de lectura, definido como aquellos que leen al menos una vez a la semana. Esta medida se expresa en una escala de tasa, donde un valor mínimo de 1 indica que todos los niños en la muestra leen con regularidad, mientras que un valor máximo de 3 sugiere que, en promedio, cada niño lee tres veces más que la frecuencia base o media observada.

2. Variables Independientes {data-icon="fa-signal"}
=====================================   
Column {data-width=400}{.tabset}
-----------------------------------------------------------------------

### Tasa de viviendas con acceso a internet por cableado

```{r, include=FALSE}
# Calcular estadísticas descriptivas específicas para tu variable
mean_tasa_celinternet <- mean(data$tasa_celinter, na.rm = TRUE)
sd_tasa_celinternet <- sd(data$tasa_celinter, na.rm = TRUE)
```

```{r}
# Crear el histograma con densidad normal superpuesta
ggplot(data = data, aes(x = tasa_celinter)) +
  geom_histogram(aes(y = after_stat(density)), bins = 10, color = "black", fill = "white") +
  stat_function(fun = dnorm, args = list(mean = mean_tasa_celinternet, sd = sd_tasa_celinternet), color = "red") +
  labs(
    title = "Tasa de viviendas que cuentan con acceso a internet",
    x = "Tasa internet",
    y = "Densidad",
    caption = "Fuente: INEI"
  ) +
  theme_minimal()
```

### Tasa de viviendas con acceso a internet desde un celular 

```{r, include=FALSE}
# Calcular estadísticas descriptivas específicas para tu variable
mean_tasa_internet <- mean(data$tasa_internet, na.rm = TRUE)
sd_tasa_internet <- sd(data$tasa_internet, na.rm = TRUE)
```

```{r}
# Crear el histograma con densidad normal superpuesta
ggplot(data = data, aes(x = tasa_internet)) +
  geom_histogram(aes(y = after_stat(density)), bins = 10, color = "black", fill = "white") +
  stat_function(fun = dnorm, args = list(mean = mean_tasa_internet, sd = sd_tasa_internet), color = "red") +
  labs(
    title = "Tasa de viviendas que cuentan con acceso a internet\na desde un celular mvil",
    x = "Tasa Internet desde un celular",
    y = "Densidad",
    caption = "Fuente: INEI"
  ) +
  theme_minimal()
```

### Tasa de viviendas con acceso a electricidad

```{r, include=FALSE}
# Calcular estadísticas descriptivas específicas para tu variable
mean_tasa_elec <- mean(data$tasa_elec, na.rm = TRUE)
sd_tasa_elec <- sd(data$tasa_elec, na.rm = TRUE)
```

```{r}
# Crear el histograma con densidad normal superpuesta
ggplot(data = data, aes(x = tasa_elec)) +
  geom_histogram(aes(y = after_stat(density)), bins = 10, color = "black", fill = "white") +
  stat_function(fun = dnorm, args = list(mean = mean_tasa_elec, sd = sd_tasa_elec), color = "red") +
  labs(
    title = "Tasa de viviendas\na que cuentan con electricidad",
    x = "tasa electricida",
    y = "Densidad",
    caption = "Fuente: INEI"
  ) +
  theme_minimal()
```

### Tasa de viviendas con acceso a agua

```{r}
# Calcular estadísticas descriptivas específicas para tu variable
mean_tasa_agua <- mean(data$tasa_agua, na.rm = TRUE)
sd_tasa_agua <- sd(data$tasa_agua, na.rm = TRUE)
```

```{r}
# Crear el histograma con densidad normal superpuesta
ggplot(data = data, aes(x = tasa_agua)) +
  geom_histogram(aes(y = after_stat(density)), bins = 10, color = "black", fill = "white") +
  stat_function(fun = dnorm, args = list(mean = mean_tasa_agua, sd = sd_tasa_agua), color = "red") +
  labs(
    title = "Tasa de viviendas que cuentan con agua",
    x = "tasa agua",
    y = "Densidad",
    caption = "Fuente: INEI"
  ) +
  theme_minimal()
```


Column {data-width=300} {.tabset}
-----------------------------------------------------------------------
### CEDU

```{r}
# Crear el gráfico boxplot con ggplot2
p <- ggplot(data, aes(x = factor(1), y = cedu_infra)) +
  geom_boxplot(fill = "lightblue", color = "darkblue") +
  geom_boxplot(aes(x = factor(2), y = cedu_equipo), fill = "lightgreen", color = "darkgreen") +
  geom_boxplot(aes(x = factor(3), y = cedu_ensenanza), fill = "lightyellow", color = "orange") +
  geom_boxplot(aes(x = factor(4), y = cedu_material), fill = "lightpink", color = "red") +
  geom_boxplot(aes(x = factor(5), y = cedu_partpadres), fill = "lightcyan", color = "darkblue") +
  labs(title = "Todas las CEDU",
       x = "Variables",
       y = "Valores") +
  scale_x_discrete(labels = c("Cedu Infra", "Cedu Equipo", "Cedu Enseñanza", "Cedu Material", "Cedu Parte Padres"))

# Mostrar el gráfico
print(p)
```

### ¿Qué son las CEDUS?

CEDU es la abreviatura de Calidad EDUcativa, estas fueron recolectadas de la Encuesta Nacional de Hogares del año 2022. 

1. CEDU INFRA → Percepción de la calidad de infraestructura en los centros educativos (techo, paredes, etc)

2. CEDU EQUIPO → Percepción de la calidad del equipamiento en los centros educativos (carpetas, pizarras, sillas, etc)

3. CEDU ENSEÑANZA → Percepción de la calidad de los maestros en los centros educativos

4. CEDU PARTICIPACIÓN PADRES→ Percepción de la calidad de los mecanismos para la participación de los padres de familia en las instituciones 
educativas

5. CEDU  MATERIAL → Percepción de la calidad del material educativo de las instituciones educativas (libros, planes lectores, etc)


3. Análisis Factorial CEDU{data-icon="fa-signal"}
=====================================  

Column {data-width=200} {.tabset}
-----------------------------------------------------------------------

### Correlación entre variables para posible índice:

``````{r}
# Buscar columnas que contienen la palabra "cedu"
cedu_index = grep('cedu', names(data))

# Seleccionar las columnas que contienen la palabra "cedu"
cedu_data = data[, cedu_index]
```

```{r, include=FALSE}
# usaremos:
library(magrittr)
head(cedu_data,10)%>%
    rmarkdown::paged_table()
```

```{r, include=FALSE}
library(magrittr)
library(polycor)
corMatrix=polycor::hetcor(cedu_data)$correlations
round(corMatrix,2)
```

```{r}
library(ggcorrplot)
ggcorrplot(corMatrix)
```

Column {data-width=200} {.tabset}
-----------------------------------------------------------------------

### Índices KMO y Overall MSA:

```{r}
library(psych)
psych::KMO(corMatrix)
```

### Resultados Pruebas

¿Es matriz de identidad?
```{r}
cortest.bartlett(corMatrix,n=nrow(cedu_data))$p.value>0.05
```

¿Es una matriz singular?
```{r}
library(matrixcalc)
is.singular.matrix(corMatrix)
```

### Resultado del Análisis Factorial 

```{r, include=FALSE}
fa.parallel(cedu_data, fa = 'fa',correct = T,plot = F)
```

```{r, include=FALSE}
#Colocamos el NUMERO que nos dio el codigo anterior
library(GPArotation)
resfa <- fa(cedu_data,
            nfactors = 2,
            cor = 'mixed',
            rotate = "oblimin", 
            fm="minres")
print(resfa$loadings)
```


```{r}
fa.diagram(resfa,main = "Resultados del EFA")
```

```{r, include=FALSE}
as.data.frame(resfa$scores)%>%head()
```

```{r}
data$indice_1_cedu=resfa$scores[,1]
data$indice_2_cedu=resfa$scores[,2]
```

### Análisis

- Previo al análisis de nuestras variables independientes, se llevó a cabo un Análisis Factorial Exploratorio basado en las variables CEDU. Los resultados mostraron correlaciones positivas moderadamente adecuadas, con un coeficiente KMO de 0.67. Además, las pruebas para determinar si la matriz era una identidad o singular resultaron negativas, lo que permitió continuar con el análisis factorial.

- La función fa.parallel sugirió la existencia de 2 variables latentes. En el gráfico de "Resultado de EFA" se observan claramente dos factores: MR1 y MR2.

- El MR1 incluye "cedu_infra" (calidad educativa de la infraestructura) y "cedu_equipo" (calidad educativa de los equipos en las instituciones educativas), ambos relacionados con los recursos físicos educativos. Estos formarán el "índice_1_cedu".

- Por otro lado, el MR2 engloba "cedu_partpadres" (participación de los padres), "cedu_enseñanza" (calidad de la enseñanza) y "cedu_material" (materiales educativos), factores que tienen un enfoque más individualizado al entorno personal del estudiante. Estos constituirán el "índice_2_cedu".


4. Correlaciones con la variable central {data-icon="fa-signal"}
=====================================   

Column {data-width=300} {.tabset}
-----------------------------------------------------------------------



### Correlación con vivienda con acceso a internet

```{r}
ggplot(data, aes(x=tasa_leer, y=tasa_internet)) +
  geom_point(colour="darkblue") +  xlab("tasa de lectura a nivel provincial") +  ylab("tasa internet si") +
  ggtitle("Relación entre la tasa de lectura y tasa de viviendas con acceso a internet por cableado") +
  theme_light()+ geom_smooth(method=lm,se=F)
```

### Correlación con vivienda con acceso internet desde un celular


```{r}
ggplot(data, aes(x=tasa_leer, y=tasa_celinter)) +
  geom_point(colour="darkgreen") +  xlab("tasa de lectura a nivel provincial") +  ylab("tasa internet celular") +
  ggtitle("Relación entre la tasa de lectura y la tasa de viviendas con acceso a internet desde celular") +
  theme_light()+ geom_smooth(method=lm,se=F)
```

### Correlación con vivienda con acceso a electricidad 



```{r}
ggplot(data, aes(x=tasa_leer, y=tasa_elec)) +
  geom_point(colour="orange") +  xlab("tasa de lectura a nivel provincial") +  ylab("tasa electricidad") +
  ggtitle("Relación entre la tasa de lectura y tasa viviendas con acceso a electricidad") +
  theme_light()+ geom_smooth(method=lm,se=F)
```

### Correlación con vivienda con acceso a agua



```{r}
ggplot(data, aes(x=tasa_leer, y=tasa_agua)) +
  geom_point(colour="skyblue") +  xlab("tasa de lectura a nivel provincial") +  ylab("tasa agua") +
  ggtitle("Relación entre la tasa de lectura y tasa de viviendas con acceso a agua") +
  theme_light()+ geom_smooth(method=lm,se=F)
```

### Correlación con el índice 1

```{r}
ggplot(data, aes(x=tasa_leer, y=indice_1_cedu)) +
  geom_point(colour="darkgray") +  xlab("tasa de lectura a nivel provincial") +  ylab("Índice 1 - Cedu") +
  ggtitle("Relación entre la tasa de lectura e Índice 1 (Ambiente Colegio)") +
  theme_light()+ geom_smooth(method=lm,se=F)
```

### Correlación con el Índice 2

```{r}
ggplot(data, aes(x=tasa_leer, y=indice_2_cedu)) +
  geom_point(colour="purple") +  xlab("tasa de lectura a nivel provincial") +  ylab("Índice 2 - Cedu") +
  ggtitle("Relación entre la tasa de lectura e Índice 2 (Cedu)Ambiente Hogar)") +
  theme_light()+ geom_smooth(method=lm,se=F)
```


Column {data-width=200} {.tabset}
-----------------------------------------------------------------------

### Análisis 
Las correlaciones bivariadas entre la "tasa de la práctica de lectura en los niños y adolescentes (de 6 a 17 años)" y las variables independientes se midieron utilizando la prueba de Pearson en todos los casos.

- Tasa de Internet: Esta variable representa la tasa de viviendas con acceso a Internet. Tiene una relación positiva y significante, prueba Spearman, con p valor de 0.03.

- Tasa de Internet móvil: Esta variable indica la tasa de viviendas con acceso a Internet desde un teléfono móvil. Posee una relación positiva y débil, con un coeficiente de Pearson de 0.1538.

- Tasa de electricidad: Esta variable muestra la tasa de viviendas con acceso a electricidad. Tiene una relación positiva y signficativa, prueba Spearman y con p valor de 0.026.

- Tasa de agua: Esta variable se refiere a la tasa de viviendas con acceso a agua potable desde una red pública. La relación es positiva relación positiva y signficativa, prueba Spearman y con p valor de 0.016.

- Índice 2 CEDU: La relación entre esta variable y la práctica de lectura es positiva y signficativa, prueba Spearman y con p valor de 0.07.

- Índice 1 CEDU: Se observa una relación positiva y signficativa, prueba Spearman y con p valor de 0.01.

- IMPORTANTE: nos quedaremos con las más significativas y determinantes (a nuestro criterio) para realizar los modelos de regresión, que son: "tasa de Internet", "tasa de Internet móvil", "tasa de electricidad" e "Índice 1 CEDU".


5. Regresiones {data-icon="fa-signal"}
=====================================   
Column {data-width=300} {.tabset}
-----------------------------------------------------------------------
### MODELO 1
```{r}
data2 <- data
data2$tasa_leer <- as.integer(data2$tasa_leer)
```

```{r}
library(modelsummary)
h1 = formula(tasa_leer ~ indice_1_cedu)

rp1 = glm(h1, data = data2, 
        offset = log(leen_total), #exposure 
        family = poisson(link = "log"))

h1=list('Modelo (I)'=rp1)
modelsummary(h1, title = "Regresion: modelo 1",
             stars = TRUE,
             output = "kableExtra")
```

### MODELO 2 

```{r}
library(modelsummary)
h4 = formula(tasa_leer ~ indice_1_cedu + tasa_internet)

rp2 = glm(h4, data = data2, 
        offset = log(leen_total), #exposure 
        family = poisson(link = "log"))

h4=list('Modelo (II)'=rp2)
modelsummary(h4, title = "Regresion: modelo 2",
             stars = TRUE,
             output = "kableExtra")
```


### MODELO 3

```{r}
h3 = formula(tasa_leer ~ indice_1_cedu+ tasa_internet + tasa_celinter)

rp3 = glm(h3, data = data2, 
        offset = log(leen_total), #exposure 
        family = poisson(link = "log"))

h3=list('Modelo (III)'=rp3)
modelsummary(h3, title = "Regresion: modelo 3",
             stars = TRUE,
             output = "kableExtra")
```

### MODELO 4

```{r}
h4 = formula(tasa_leer ~ indice_1_cedu+ tasa_internet + tasa_celinter + tasa_elec)

rp4 = glm(h4, data = data2, 
        offset = log(leen_total), #exposure 
        family = poisson(link = "log"))

h4=list('Modelo (IV)'=rp4)
modelsummary(h3, title = "Regresion: modelo 3",
             stars = TRUE,
             output = "kableExtra")
```

### Comparación 

```{r}
formatoNum <- function(x) format(x, digits = 4, scientific = FALSE)
models_total=list('Modelo 1'=rp1,
                 'Modelo 2'=rp2,
                 'Modelo 3'=rp3,
                 'Modelo 4' = rp4)

modelsummary(models_total,fmt=formatoNum,
             exponentiate = T, 
             statistic = 'conf.int',
             title = "EXP() del Modelo 1, Modelo 2 y Modelo2",
             stars = TRUE,
             output = "kableExtra")

```


Column {data-width=300}
-----------------------------------------------------------------------
### Tabla Chi- Cuadrado

```{r}
anova(rp1,rp2, rp3, rp4, test = "Chisq") %>%
kable(caption = "Tabla ANOVA para comparar modelos")%>%kableExtra::kable_styling(full_width = FALSE)
```


### Análisis

- Modelo 1: Primera hipótesis: la práctica lectora en niños y adolescentes es causada por el ambiente de la institución educativa.

- Modelo 2: Segunda hipótesis: la práctica lectora en niños y adolescentes es causada por el acceso a Internet, por el acceso a recursos físicos educativos de calidad, el acceso a Internet desde un celular móvil y que la vivienda cuente con electricidad.

- Modelo 3: Tercera hipótesis: la práctica lectora en niños y adolescentes es causada por el acceso a Internet, el acceso a Internet desde un celular móvil y que la vivienda cuente con electricidad.

- Conclusión:
La regresión elegida es la de Poisson, ya que nuestras variables están medidas en tasas, lo que la convierte en la opción indicada. Se inició con el MODELO 1, utilizando las variables "índice_1_cedu" y "tasa_internet". En este modelo, se identificó la significancia de ambas variables. Por lo tanto, se procedió a realizar el MODELO 2. En esta se agregaron las variables restantes: "tasa_internet_celular" y "tasa_electricidad". La significancia de "índice_1_cedu" se mantuvo, mientras que las variables agregadas resultaron significativas la primera a 0.05 y la segunda al 0.1. Por consiguiente, se procedió a realizar el MODELO 3; se decidió quitar la variable "índice_1_cedu" para el tercer modelo, y las variables mantuvieron su significancia.
Al comparar los modelos con la prueba de chi-cuadrado, tal como se visualiza en la tabla ANOVA, se demostró que el segundo modelo (o MODELO 2) resultó ser el mejor, con un AIC de 558.8 el cual es el menor de los tres modelos. Asimismo, todas las variables del segundo modelo son significativas al 0.1, siendo la más significativa la "tasa_internet" al 0.001.


6. Conglomerados {data-icon="fa-signal"}
=====================================   
Column {data-width=300} {.tabset}
-----------------------------------------------------------------------

```{r}
dataClus=data[,c("tasa_internet", "tasa_celinter", "tasa_elec", "tasa_leer")]
row.names(dataClus)=data$NOMBPROV
```

```{r}
library(cluster)
g.dist = daisy(dataClus, metric="gower")
```


### Cantidad de Clusters
```{r}
library(factoextra)

## PARA JERARQUICO

fviz_nbclust(dataClus, hcut,diss=g.dist,method = "gap_stat",k.max = 10,verbose = F,hc_func = "agnes")
```

```{r, include=FALSE}
# en la K ponemos el numero que nos salio antes
set.seed(123)
library(factoextra)

res.agnes<- hcut(g.dist, k = 3,hc_func='agnes',hc_method = "ward.D")
dataClus$agnes=res.agnes$cluster

# ver

head(dataClus,15)%>%kbl()%>%kable_styling()
```

```{r, include=FALSE}
silAGNES=data.frame(res.agnes$silinfo$widths)
silAGNES$country=row.names(silAGNES)
poorAGNES=silAGNES[silAGNES$sil_width<0,'country']%>%sort()
poorAGNES
```

```{r, include=FALSE}
aggregate(.~ agnes, data=dataClus,mean)
```

```{r, include=FALSE}
data$agnes_provincia=data$NOMBPROV%in%poorAGNES
data$agnes_provincia=as.ordered(dataClus$agnes)
dataClus$agnes=NULL
```

```{r, include=FALSE}
library(sf) 
mapPROV=sf::read_sf("Provincial INEI 2023 geogpsperu SuyoPomalia.shp")
head(mapPROV) #Veamos la geometría:
```

```{r, include=FALSE}
mapPROV1 <- merge(mapPROV, data, by.x = 'PROVINCIA', by.y = 'NOMBPROV', all.x = TRUE)
```

### Dendograma en base a estragia de partición (AGNES)


```{r}
library(ggplot2)
library(RColorBrewer)

# Crear el mapa
mapa_CLUS_Agnes <- ggplot(mapPROV1) +
  geom_sf(aes(fill = factor(agnes_provincia)), color = "gray") +  # Mapea la variable agnes_provincia al relleno del mapa
  scale_fill_brewer(palette = "YlOrRd", na.value = "gray") +  # Usar una paleta de colores discreta
  labs(
    fill = "Agrupación Agnes",
    title = "Clasificación de provincias",
    subtitle = "Según el análisis de conglomerados AGNES",
    caption = "Fuente: INEI \nElaborado por: Yhara y Romina"
  ) +
  theme_minimal() +  # Tema minimalista
  theme(
    plot.title = element_text(color = "black", size = 16, face = "bold", hjust = 0.5),  # Título más pequeño
    plot.subtitle = element_text(color = "black", size = 12, hjust = 0.5),  # Subtítulo más pequeño
    plot.caption = element_text(color = "black", size = 10),
    legend.position = "right",  # Coloca la leyenda a un lado
    legend.title = element_text(size = 12, face = "bold"),  # Título de la leyenda más pequeño
    legend.text = element_text(size = 10),  # Texto de la leyenda más pequeño
    axis.title.x = element_blank(),  # Eliminar título del eje x
    axis.title.y = element_blank(),  # Eliminar título del eje y
    axis.text.x = element_blank(),  # Eliminar etiquetas del eje x
    axis.text.y = element_blank(),  # Eliminar etiquetas del eje y
    axis.ticks = element_blank()  # Eliminar ticks de los ejes
  )

# Mostrar el mapa
print(mapa_CLUS_Agnes)
```

Column {data-width=300}
-----------------------------------------------------------------------

### Silhouette 

```{r}
fviz_silhouette(res.agnes,print.summary = F)
```

### Análisis

- Al realizar el proceso de clusterización y análisis por conglomerados, se observó que el mejor modelo resultó ser AGNES, con un Silhouette de 0.24. Aunque este valor es bajo, es el mejor y nos muestra una clara agrupación. El eje ‘Height’ nos muestra que el “costo” de conglomerar fue de 2.0. Además, el cuarto grupo es el mejor agrupado. Por último, estas son las provincias mal clusterizadas: AREQUIPA, CANDARAVE, CARABAYA, CHUPACA, FERREÑAFE, HUARAZ, HUAYLAS, JULCAN, LAMBAYEQUE, LUCANAS, MARISCAL NIETO, OXAPAMPA, PICOTA, SAN MIGUEL, SAN ROMAN, TARATA, VICTOR FAJARDO, VILCAS HUAMAN y VIRU.

7. Conclusiones {data-icon="fa-signal"}
=====================================   
Column {data-width=300}
-----------------------------------------------------------------------
### Gráfico regresional

```{r}
dotwhisker::dwplot(list(Modelo1=rp1,Modelo2=rp2,Modelo3=rp3, Modelo4=rp4),exp=T) + scale_y_discrete(labels=c("Tasa Electricidad","Tasa internet celuar","Tasa Internet", "Índice 1 Cedu")) + scale_color_discrete(name="Modelos para:\nTasa de práctica de lectura") + geom_vline(
           xintercept = 1,
           colour = "grey60",
           linetype = 2
       )
```


Column {data-width=300}
-----------------------------------------------------------------------

### Bibliografía

Domínguez, I. D., Delgado, L. R., Ávila, Y. T., & Ávila, M. M. R. (2015). Importancia de la lectura y la formación del hábito de leer en la formación inicial. Estudios del desarrollo social: Cuba y América Latina, 3(1), 94-102.

Encuesta Nacional de Lectura - ENL (2022). Características de la vivienda y del hogar, actividades de fomento de la lectura en el hogar y TIC. Recuperado de la base de datos del Instituto Nacional de Estadística e Informática. 

Encuesta Nacional de Lectura - ENL (2022). Prácticas lectoras de los residentes habituales de 0 a 17 años de edad. Recuperado de la base de datos del Instituto Nacional de Estadística e Informática.

### Conclusiones Finales

- ACAAA TEXTOOOOO

-

-

-

-